什么是自然语言处理?
什么是自然语言处理
前 言
随着信息时代的发展和社会生活的进步,手机,电脑等等人工智能产品不断更新,机器识别人类语言并完成语言命令成为了人工智能领域的重要方向,对此,语言学也和计算机科学结合,产生了计算语言学的理论系统,而计算语言学的主要应用方向就是自然语言处理,那什么是自然语言?自然语言处理的困难是什么?发展趋势又是什么?相信下面的文字会对你有所帮助。
什么是自然语言
“自然语言“是与“人造语言”相区别,指一种自然地随文化演化而产生的语言。这里所说的“人造语言”主要是指为计算机命令和识别而设的编程语言(如C语言,Python,Java,R语言等),所以自然语言有时泛指人类社会交流所使用的各种语言(如汉语,英语等等)。
随着计算机和互联网的广泛应用,计算机需处理的自然语言文本数量也空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理领域已经成为人工智能中最热门,也是最为困难的问题之一。
人类语言分布
人工智能涉及的领域
总而言之,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
自然语言处理的主要困难
自然语言处理的困难很多,但正如人与人之间的交流一样,理解其语言表达的正确含义是关键,也就是关于消除歧义的问题是重中之重。
人类的语言表达是很复杂的,比如在微信朋友圈看到朋友发“今天天气很好!”乍一看,你以为今天天气真的很好,但再看下面配图是阴云密布,闪电交加,那这表达的就不是天气很好了,而是一种反讽。
今天天气很好
针对以上的配图问题,人工智能领域也出现了视觉图像处理的研究方向,但通过以上例子,我们可以看出自然语言处理的难点根源在于人类语言和语言描述的外部世界的复杂性,关于语言的复杂性以及自然语言处理难在哪儿,大家可见清华大学刘知远老师的自然语言理解难在哪儿,那目前人们是如何尝试进行自然语言处理的呢?接下来我们接着讲自然语言处理的发展趋势。
自然语言处理的发展趋势
对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。
理性主义方法认为,人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。
早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是统计了《欧根·奥涅金》长诗中元音与辅音出现的频度;1948年香农把离散马尔科夫的概率模型应用于语言的自动机,同时采用手工方法统计英语字母的频率。
然而这种经验主义到了乔姆斯基时出现了转变。1956年乔姆斯基借鉴香农的工作,把有限状态机用作刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立了一大堆有关语法的数学模型。这些工作非常伟大,为自然语言和形式语言找到了一种统一的数学描述理论,一个叫做“形式语言理论”的新领域诞生了。
在20世纪50年代末到60年代中期,经验主义东山再起了。多数学者普遍认为只有详尽的历史语料才能带来靠谱的结论。于是一些比较著名的理论与算法就诞生了,如贝叶斯方法(Bayesian Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown University诞生的。但是总的来说,这个时代依然是基于规则的理性主义的天下,经验主义虽然取得了不俗的成就,却依然没有受到太大的重视。但是金子总会发光的。
乔姆斯基
自然语言处理的方向(维基)
90年代以来,基于统计的自然语言处理就开始大放异彩了。首先是在机器翻译领域取得了突破,因为引入了许多基于语料库的方法(哈钦斯,英国著名学者)。1990年在芬兰赫尔辛基举办的第13届国际计算语言学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,大家的重心开始转向大规模真实文本了,传统的仅仅基于规则的自然语言处理显然力不从心了。学者们认为,大规模语料至少是对基于规则方法有效的补充。到了1994~1999年,经验主义就开始空前繁荣了。如句法剖析、词类标注、参照消解、话语处理的算法几乎把“概率”与“数据”作为标准方法,成为了自然语言处理的主流。
理性主义的缺点
然而,我们同时面临着一个严峻事实,那就是如何有效利用海量信息已成为制约信息技术发展的一个全局性瓶颈问题。自然语言处理无可避免地成为信息科学技术中长期发展的一个新的战略制高点。人们逐渐意识到,单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,两者互相补充,才能够更好、更快地进行自然语言处理。
文案:双鸭山学长,网络
排版:秀米